中研院史語所多年來在古籍數位化的努力與成績有目共睹~~
引文:
帶領中研院數位文化中心團隊,參與該賽事的史語所研究助技師王祥安表示,這次賽事中提供的清代古籍圖像大多刻意挑選文字透底、圖像歪斜、含大小字並列與混合,或夾雜異體字、罕用字與肉眼無法辨識之文字,甚至還有書頁破損、有污漬等問題的高難度版本,但團隊得益於該院史語研究所建置的漢籍資料庫,並透過逾10項圖像處理、文字處理與機器學習技術,包括雜訊去除、版面分析、標記與文字偵測、文字辨識、根據語言模型進行錯字修正、文字序列輸出等,進行多重處理,也因得益於人工機器智慧學習技術、影像識別技術突破,最後以近91%的準確度,打敗其他國家隊伍。
技術超強!中國古籍文字自動識別賽 中研院團隊準確率逾9成奪冠
https://news.ltn.com.tw/news/life/breakingnews/3522253